iT邦幫忙

2024 iThome 鐵人賽

DAY 1
1

緣起

如果你剛踏入數據科學的世界,那你一定聽說過 Kaggle 這個神奇的地方。Kaggle 是一個全球最大的數據科學競賽平台,匯聚了來自世界各地的數據愛好者和專家。這裡不僅有各種有趣的數據挑戰賽,還有機會贏取豐厚的獎金。當你在深夜看到一封來自 Kaggle 的 email,宣佈即將舉行一場總獎金一百萬美元、開發時間長達兩到四個月的比賽時,是不是心癢難耐,腦海裡已經浮現出自己站在領獎台上的畫面?

很多人會興奮地點進比賽頁面,看完說明後暗自嘀咕:“哎,不過就是個分類或回歸問題嘛,AI課程裡都有教過,只是數據不同罷了。” 對於 NLP 的題目,可能腦海裡已經浮現出用預訓練的BERT模型來跑一訓練資料的場景。於是,一番爆 train 之後,幻想著自己即將成為金牌得主,甚至已經在計劃如何花掉五十萬美元的獎金。然而,一頓操作猛如虎,評測結束,你可能會發現自己在排行榜上連前 5% 都進不了,更別提拿金牌了。

經歷幾次這樣的挫敗後,你可能會開始懷疑那些金牌、銀牌得主是不是真的有什麼神秘的“大神”技能,他們有超級豐富的經驗和超敏銳的直覺,我等凡人似乎遙不可及。每次比賽結束後,看著他們分享的獲獎方案,心裡充滿了好奇:“他們到底是怎麼想到這些方法的?為什麼要這樣處理數據?為什麼選擇這種模型?怎麼知道要用這些技巧?”

隨著時間的推移,我開始注意到,這些獲獎方案並非憑空出現,而是建立在大量討論和知識共享的基礎上。

Kaggle競賽的魅力在於參賽者之間的開放與合作。通過共同討論從數據中發掘的 insight、分享自己做的假設與實驗結果,互相用證據支持或反駁,參賽者們相互啟迪,最終才有機會產生幾個得獎主的高效解法。

因此,我開始深入研究這些討論區中的內容,發現通過學習這些高手們如何觀察數據、分析資料、提出假設並設計實驗來驗證這些假設,我們可以學到許多寶貴的解題思路和方法。這些方法雖然不一定適用於每個賽題,但它們提供了可以跨賽題應用的思維模式和解決問題的框架。跟隨這些大神的對話,會發現這些金牌銀牌等得獎的方案其實有跡可循,我輩凡人其實跟隨這些討論串一起思考,其實也能順藤摸瓜想到和得獎主八九不離十的方案,這本身也是極具趣味和成就感的事情。

這正是本系列文章的初衷:帶領讀者一起探索這些討論區中的寶藏,從數據洞見到最終的優勝方案,一步步揭示這些解決方案是如何誕生的。

內容規劃

由於我本身對 NLP 有比較多的經驗和研究興趣,因此本系列文章的規劃是前期會介紹一些比較傳統的 NLP 賽題,中後期會開始介紹這一兩年才有關於 LLM 相關的競賽題目。

本次鐵人賽涵蓋的主題如下,我會在每日完稿後再更新連結:

前期

中期

  • ML Olympiad - Detect hallucinations in LLMs

    • 簡介:在這個Kaggle競賽(#MLOlympiad的一部分)中,參賽者被要求開發能夠識別由Mistral 7B Instruct模型生成的幻覺性回覆的算法。任務是設計機器學習模型或算法,準確地判斷出哪些回覆最可能是幻覺性的。比賽的目標是區分真實且符合上下文的回覆與那些無意義、誤導或錯誤的回覆,從而推動自然語言處理領域在檢測和減少語言生成模型中的幻覺方面取得進展。
  • LLM - Detect AI Generated Text 檢測AI生成的文本

    • 簡介:這個比賽的任務是建立一個模型,用來區分由中學生和高中生撰寫的文章與大型語言模型生成的文章。目的是檢測語言模型生成的文字特征,以防止學術不端行為,並促進對語言模型文本檢測技術的發展。
  • LLM Prompt Recovery

    • 簡介:恢覆用於改寫給定文本的LLM提示。比賽數據集包含1300多條原始文本及其對應的改寫版本,改寫版本由Gemma(Google的新開放模型系列)完成。

後期

  • LLM Science Exam

    • 簡介:本次比賽受OpenBookQA數據集啟發,要求參賽者回答由大型語言模型提出的一系列科學難題。這項工作將幫助研究人員更好地理解語言模型自我測試的能力,以及在資源受限環境下運行語言模型的潛力。
  • LLM 20 Questions

    • 簡介:在“20 Questions”的遊戲中,使用一問一答的形式,猜出秘密詞語。每隊由一個負責提問和猜測的LLM(猜詞者)和一個負責回答的LLM(回答者)組成。目標是通過有效的提問和回答,讓猜詞者盡可能快地猜出詞語,評估LLM的推理、信息收集和協作能力。
  • AI Mathematical Olympiad AI 奧數挑戰賽

    • 簡介:AI數學奧林匹克(AIMO)設立了一項1000萬美元的獎金,旨在推動開發能在國際數學奧林匹克(IMO)中媲美人腦的AI模型。比賽包含110道類似高中中級數學挑戰賽的問題,旨在公平評估AI的數學推理能力,避免訓練數據泄露影響評判。通過解決基準測試問題,促進AI模型在數學推理領域的進步與創新。

以上是我預計會介紹的 Kaggle 競賽,個人覺得每個比賽都超級有趣:D
這些基本上都是這一兩年的競賽,所以得獎主使用的解法基本上也是現在相關研究人員時常使用的技術。由於每一個賽題都會詳細介紹當時討論區提到的一些有趣的假設和嘗試,如果時間允許的話也會介紹前四名的解法,不會只講金牌的做法(有時候金牌的做法反而比較無聊,就只是 ensemble 一堆模型而已,有用但無趣),因此可能會連續三四天都介紹同一個賽題的不同面向。

由於重點想放在這些參賽者是怎麼拆解賽題、分析數據的思路過程,因此有些過程中用到的一些常見的演算法、模型就不會特別去介紹以讓文章內容更聚焦。因此本系列比較適合熟悉自然語言處理的常見工具、演算法,以及語言模型等觀念,但缺乏怎麼使用這些模型、工具的實戰經驗的這類讀者。

謝謝讀到最後的你,希望你也會對這些比賽和本文的寫作內容有興趣~
如果喜歡這系列,別忘了按下訂閱,才不會錯過最新更新,也可以按讚給我鼓勵唷!👏👏

接下來,讓我們一起走進Kaggle競賽的世界,從討論區發現那些金牌解法背後的故事吧:)


下一篇
[Day 2] Kaggle 自動作文評分競賽(一)- 淺談數據洩露與內容匹配:如何確認訓練數據中的潛在泄漏?
系列文
一個Kaggle金牌解法是如何誕生的?跟隨Kaggle NLP競賽高手的討論,探索解題脈絡12
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言